郭老师统计小课堂 | 如何知道别人有没有作弊?
Editor's Note
郭老师统计小课堂向读者介绍和分享统计学的知识、趣事、方法和思想。希望能对统计学的传播起到一定积极作用,同时也希望更多的统计同仁一起分享更多的统计知识。让整个社会都感受统计学的魅力和力量。
The following article is from 郭老师统计小课堂 Author 杜讴妍,周与然
抽样调查是统计学中获取数据的一种重要手段。但在一些敏感性问题的调查上,出于保护隐私等原因,被调查者可能不愿诚实作答,这就使得样本数据的真实性得不到保障,进一步甚至使得整个研究都将失去意义。
比如,学校想要知道大家在某一项考试中是否存在作弊现象,如果直接调查采访那显然毫无意义,究竟应该如何设计才能成功得到真实的作弊者比例呢?本文将就这一问题展开讨论。
Part1敏感性问题的概念
所谓敏感性问题即指涉及到被调查者的秘密、禁忌等令其不愿回答或者不愿真实回答的问题。因此,处理敏感性问题的关键在于“获取”被调查者的信任,消除被调查者的顾虑,得到真实的数据。
Part2敏感性问题的解决办法——随机化回答技术RRT
在统计学中,对于处理敏感性问题,比较流行的做法是使用随机化回答技术(Randomized Response Technique, RRT)。它通过在调查中事先设置一个特定的随机化装置,使得被调查者以预定的概率 来回答敏感性问题。这一方法可最大限度地保护被调查者的隐私,从而取得被调查者的信任。
现阶段随机化回答技术最常用的模型有沃纳模型和西蒙斯模型。下面将就这两个模型进行介绍。
1沃纳模型
沃纳模型是1965年由Warner提出的。其基本思想是提供给被调查者两个与敏感性问题有关但又完全对立的问题,让被调查者在随机化装置的作用下以一个预定的概率P选择其中的一个问题作答,调查者无权过问也绝不会知道被调查者究竟回答了哪一个问题。由于调查者不会得知被调查者回答的是哪个问题,被调查者大可放心地如实作答,数据的真实性由此可得到保障。
下面谈谈用沃纳模型来处理敏感性问题的具体做法。
首先设总体可分为两类:
1.具有敏感性特征的一类,其在总体中的比例为;
2.不具有敏感性特征的一类,其在总体中的比例为。
然后为这个调查设计一个随机化装置,被调查者在随机化装置的作用下以概率选择问题或以概率选择问题
作答。两个问题的答案均为“是”或“否”,可以通过回收的问卷得知被调查者答案为“是”的概率 。之后再用全概率公式求解得到我们想要的答案,即具有敏感性特征的人在总体中的比例
。
对于同学们在某一项考试中是否存在作弊现象,我们可以:
首先设计出两个对立问题:
问题
问题
然后邀请被调查的同学进入一个完全独立的房间,里面不会有工作人员,也没有安装摄像头,整个作答过程仅由被调查者一人操控。房间里有一个装着红、白小球的不透明箱子,两种小球仅颜色上有差别,这就是我们的“随机化装置”。
被调查者通过摸球来决定自己将要回答的问题,如果摸到红球,则回答
假设:
则由全概率公式
得到
在实际应用中,当样本量
具体的R语言操作见下:
π <- function(m, n, P){
return((m/n+P-1)/(2*P-1))
}
沃纳模型的缺陷
沃纳模型虽然在一定程度上消除了被调查者的顾虑,但仍存在三个明显的缺陷:
1.设计的这两个问题存在明显的相关关系,这使被调查者仍有可能怀疑而不予合作。
2.在沃纳模型的公式中要求
3.即使满足了
2西蒙斯模型
西蒙斯模型是1967年由Simons提出的。其基本思想仍以沃纳模型为基础,但是在沃纳模型的基础上进行了一些改进。它将沃纳模型中与敏感性问题
其处理敏感性问题的具体做法:
因为其大致做法和沃纳模型相似,我们直接以求“在某一项考试中作弊同学的比例”为例进行讲解:
首先设计出两个问题:
问题
问题
然后邀请被调查的同学进入房间内,通过摸球来选择回答的问题(这里与沃纳模型中的设置一样)。
假设:
则由全概率公式
得到
从这里可以看出沃纳模型中要求
而在实际应用中,需要
具体的R语言操作见下:
π <- function(m, n, P, π'){
return((m/n-((1-P)*π'))/P)
西蒙斯模型的缺陷
西蒙斯模型很好地消除了沃纳模型的前两个缺陷,但仍未解决
Part3参考文献:
1.https://www.docin.com/p-1664468578.html 2.https://zhuanlan.zhihu.com/p/135523164 3.https://wenku.baidu.com/view/9ea8db1af18583d0496459af.html?fr=xueshu